\section{问题二的模型建立与求解}
	\subsection{玻璃的分类规律的分析}

	该小问要求分析高钾玻璃和铅钡玻璃的分类规律，由于表单2中数据所属玻璃类别已知，因此本问采用监督学习进行分类。对预处理后的数据使用决策树进行分类。

	\subsubsection{决策树}
	决策树是一种基于树形结构的监督学习算法，通过递归地将特征空间划分为互不重叠的区域来实现分类或回归任务。其核心思想是通过信息增益、基尼不纯度等指标选择最优划分特征，构建从根节点到叶节点的决策路径。其中每个分支节点代表一个特征及其划分阈值，每个叶子节点代表代表最终的分类或回归结果。

	信息增益($G$)基于信息熵（$H$），衡量划分前后数据不确定性的减少程度。选择使信息增益最大的特征进行划分，可以使得子节点的数据尽可能属于同一类别。信息增益($G$)及信息增益($G$)定义如\cref{eq:决策树_信息增益}。
	\begin{equation}
		\begin{aligned}
			\begin{cases}
				&H(D) = -\sum_{i=1}^{K} p_i \log_2 p_i \\
				&\text{G}(D, A) = H(D) - \sum_{v=1}^{V} \frac{|D_v|}{|D|} H(D_v) \\
				&A^* = \mathop{\arg\max}_{A \in \mathcal{F}} \text{Gain}(D, A)
			\end{cases}
		\end{aligned}
		\label{eq:决策树_信息增益}
	\end{equation}

	其中$D$表示数据集，$K$为类别总数，$p_i$表示随机变量的概率，$V$表示特征$A$的取值个数,在决策过程中选择使信息增益最大的特征$A^*$进行划分。

	基尼不纯度可以衡量数据集的分类不纯度，表示随机抽取两个样本其类别不一致的概率。选择使基尼不纯度下降最多的特征进行划分，可以使得子节点的数据尽可能纯净。基尼不纯度 ($Gini$) 及基尼指数下降($\Delta Gini$)定义如\cref{eq:决策树_基尼不纯度}。
	\begin{equation}
		\begin{aligned}
		\begin{cases}
		&Gini(D) = 1 - \sum_{i=1}^{K} p_i^2 \\
		&\Delta Gini(D, A) = Gini(D) - \sum_{v=1}^{V} \frac{|D_v|}{|D|} Gini(D_v) \\
		&A^* = \arg \max_{A \in \mathcal{F}} \Delta Gini(D, A)
		\end{cases}
	\end{aligned}
		\label{eq:决策树_基尼不纯度}
	\end{equation}
	其变量定义与\cref{eq:决策树_信息增益}中一致。
	